许多现有的模仿学习数据集都是从多个演示者那里收集的,每个示威者在环境的不同部分都有不同的专业知识。然而,标准模仿学习算法通常将所有示威者视为同质的,无论其专业知识如何,都会吸收任何次优示威者的弱点。在这项工作中,我们表明,对演示者专业知识的无监督学习可以导致模仿学习算法的性能一致。我们在示威者的学习政策和专业知识水平上开发并优化了联合模型。这使我们的模型能够从最佳行为中学习,并过滤每个演示者的次优行为。我们的模型学会了一项单一的政策,即使是最好的演示者,也可以用来估计任何州的任何演示者的专业知识。我们说明了我们从机器人和离散环境(例如Minigrid和国际象棋)的真实性持续控制任务的发现,以21美元的价格出售$ 23 $设置,平均价格为$ 7 \%\%,最高$ 60 \%\% $根据最终奖励的改进。
translated by 谷歌翻译
已知机器学习模型易于对抗对抗攻击,这可以通过引入小而设计的扰动来导致错误分类。在本文中,我们考虑了经典假设检测问题,以便在防止这种对抗扰动的捍卫方面发展基本的洞察力。我们将对抗扰动作为滋扰参数来解释对抗性扰动,并提出基于将广义似然比测试(GLRT)应用于所得复合假说检测问题的防御,共同估计兴趣类和对抗扰动。虽然GLRT方法适用于一般多级假设检测,但我们首先在$ \ ell _ {\ infty} $ norm-fundersarial扰动下对白高斯噪声中的二元假设检测进行评估,这是一个已知的最低限度防御优化最糟糕的攻击提供基准。我们派生了GLRT防御的最坏情况攻击,并表明其渐近性能(随着数据的维度增加)接近MIMIMAX防御。对于非渐近制度,我们通过模拟显示GLRT防御与最坏情况下的最小攻击性能竞争,同时在较弱的攻击下产生更好的稳健性准确性权衡。我们还说明了多级假设检测问题的GLRT方法,其中尚不清楚最少的策略,通过提供一种找到最佳噪声感知攻击的方法,评估其在噪声无神不可知和噪声感知的逆势环境下的性能和启发式攻击,发现在高SNR制度中接近最佳的噪声无关攻击。
translated by 谷歌翻译
培训可以在各种城市和公路情景中自主推动的智能代理在过去几十年中是机器人学会的热门话题。然而,在道路拓扑和邻近车辆定位方面的驾驶环境的多样性使得这个问题非常具有挑战性。不言而喻,虽然自动驾驶的场景特定的驾驶政策是有前途的,并且可以提高运输安全性和效率,但它们显然不是一个通用的可扩展解决方案。相反,我们寻求决策计划和驾驶策略,可以概括为新颖和看不见的环境。在这项工作中,我们利用了人类司机学习其周围环境的抽象表达的关键思想,这在各种驾驶场景和环境中相当类似。通过这些陈述,人类司机能够快速适应新颖的环境和在看不见的条件下驱动。正式地,通过强制信息瓶颈,我们提取一个潜在的表示,最小化\ extentit {距离} - 我们介绍的量化,以便在驱动场景之间介绍不同驾驶配置之间的相似性。然后采用这种潜在的空间作为Q学习模块的输入,以学习更广泛的驾驶策略。我们的实验表明,使用这种潜在的表示可以将崩溃的数量减少到大约一半。
translated by 谷歌翻译
Federated learning is a distributed framework according to which a model is trained over a set of devices, while keeping data localized. This framework faces several systemsoriented challenges which include (i) communication bottleneck since a large number of devices upload their local updates to a parameter server, and (ii) scalability as the federated network consists of millions of devices. Due to these systems challenges as well as issues related to statistical heterogeneity of data and privacy concerns, designing a provably efficient federated learning method is of significant importance yet it remains challenging. In this paper, we present FedPAQ, a communication-efficient Federated Learning method with Periodic Averaging and Quantization. FedPAQ relies on three key features: (1) periodic averaging where models are updated locally at devices and only periodically averaged at the server; (2) partial device participation where only a fraction of devices participate in each round of the training; and (3) quantized messagepassing where the edge nodes quantize their updates before uploading to the parameter server. These features address the communications and scalability challenges in federated learning. We also show that FedPAQ achieves near-optimal theoretical guarantees for strongly convex and non-convex loss functions and empirically demonstrate the communication-computation tradeoff provided by our method.
translated by 谷歌翻译
在这项工作的第一部分[32]中,我们引入了针对二次约束二次程序的凸抛物线松弛,以及依次惩罚的抛物线释放算法,以恢复近乎最佳的可行解决方案。在第二部分中,我们表明,从可行的解决方案或满足某些规律性条件的近乎可行的解决方案开始,顺序惩罚的抛物线弛豫算法的收敛到满足Karush-Kuhn-tucker优化条件的点。接下来,我们介绍了基准非凸口QCQP问题的数值实验以及系统识别问题的大规模实例,证明了所提出的方法的效率。
translated by 谷歌翻译
对于一般二次约束二次编程(QCQP),我们提出了一种用凸二次约束描述的抛物线弛豫。抛物线弛豫的一个有趣的特性是原始的非凸起可行集包含在抛物线弛豫的边界上。在某些假设下,该财产使人们能够通过客观惩罚恢复近乎最理想的可行点。此外,通过对需要一次性计算的最佳基础计算的适当更改,可以使易于解决的抛物线释放放松与半决赛编程(SDP)放松一样强大,这可以有效地意识到算法,这些算法可以使得算法有效需要解决一系列凸替代物。这项工作的下一部分给出了大多数理论和计算结果[57]。
translated by 谷歌翻译
在本文中,我们为两个静态的美国手语(ASL)手势分类任务(即ASL字母和ASL数字)开发了四个尖峰神经网络(SNN)模型。SNN模型部署在英特尔的神经形态平台上,然后与部署在边缘计算设备(Intel神经计算棒2(NCS2))上的等效深神经网络(DNN)模型进行了比较。在准确性,延迟,功耗和能源方面,我们进行了两种系统之间的全面比较。最佳DNN模型在ASL字母数据集上的精度为99.6%,而最佳性能SNN模型的精度为99.44%。对于ASL数字数据集,最好的SNN模型以99.52%的精度优于其所有DNN对应物。此外,我们获得的实验结果表明,与NCS2相比,Loihi神经形态硬件的实现分别可降低14.67倍和4.09倍。
translated by 谷歌翻译
顺序决策的违规政策评估方法可用于帮助识别拟议的决策政策优于当前基线政策。但是,新的决策政策可能比某些人的基线政策更好,但不是其他人。这有动力推动个性化和准确的单态治疗效果估算(HTES)。鉴于许多重要应用中存在的有限数据,个体预测可以以准确性和在这种预测中的准确性和置信度的成本。通过识别子组,我们开发一种平衡对个人化的需求,以通过识别相对于基线的新决策政策中的预期差异来自信地估计预期估计。我们提出了一种新的损失函数,用于在子组分区阶段期间的不确定性。在实验中,我们表明我们的方法可用于形成其他方法斗争的HTES的准确预测。
translated by 谷歌翻译
多机器人系统通过整体对应物提供增强的能力,但它们以增加的协调复杂化。为了减少复杂性并使文献中的多机器人运动规划(MRMP)方法采用牺牲最优性或动态可行性的解耦方法采用解耦方法。在本文中,我们提出了一种凸起方法,即“抛物线弛豫”,为所有机器人的耦合关节空间中MRMP产生最佳和动态可行的轨迹。我们利用建议的放松来解决问题复杂性,并在极端集群环境中规划超过一百个机器人的计算途径。我们采取了一种多级优化方法,包括i)数学地配制MRMP作为非凸优化,II)将问题提升到更高的尺寸空间,III)通过所提出的计算有效的抛物线松弛和IV凸出问题。使用迭代搜索惩罚,以确保对原始问题的可行性和近最佳解决方案的可行性和恢复。我们的数值实验表明,所提出的方法能够在比最先进的成功率上具有更高成功率的挑战运动规划问题的最佳和动态可行的轨迹,但在高度密集的环境中,在一百个机器人中仍然在计算上仍然在计算上。 。
translated by 谷歌翻译
从一个人的错误中学习是一种有效的人类学习技术,学习者更多地关注在犯错误的主题上,以便加深他们的理解。在本文中,我们调查这种人类学习策略是否可以应用于机器学习。我们提出了一种新的机器学习方法,称为来自错误(LFM)的学习,其中学习者通过在修订期间更多地关注错误来提高其学习的能力。我们制定LFM作为三阶段优化问题:1)学习者学习;2)学习者重新学习专注于错误,而且;3)学习者验证其学习。我们开发了一种有效的算法来解决LFM问题。我们将LFM框架应用于CiFar-10,CiFar-100和ImageNet上的神经架构搜索。实验结果强烈展示了我们模型的有效性。
translated by 谷歌翻译